DeepSeek V3
こちらを含め多くのDeepSeek社のモデルは独自のdeepseek Licenseなるものなので注意
基本的には商用利用含め制限はないが、法令遵守(中国国内法+ユーザーのいる国)をしろと明示的に書かれている他、派生物に対する記述があるので(事実上の制限(法令遵守の範囲)は薄いにしても)いわゆる「License汚染」の伝搬性には注意が必要かもしれない 具体的にはデータセットをV3ベースで作ったりする際にはネックになるかも…?といったところ。morisoba65536.icon
Licenseが伝搬する条件(訳文)
「モデルの派生物」とは、モデルに対するすべての変更、モデルに基づく作品、またはモデルの重み、パラメータ、アクティベーション、または出力のパターンを他のモデルに転送することによって作成または初期化され、他のモデルがモデルと同様に機能するようにするその他のモデルを意味します。これには、中間データ表現の使用を伴う蒸留方法や、他のモデルをトレーニングするためのモデルによる合成データの生成に基づく方法が含まれますが、これらに限定されません。
解釈は別れるし多分Deepseek社がガチで訴える気になれば広く取れるのだろうけど、基本的にはデータセットを作るだけとか教師データの一部にするくらいなら多分そこまでネックにならないだろう…と思われる(まあ伝搬可能性が気になるなら今ならDeepSeek-R1があるので素直にそちらを使おう。)morisoba65536.icon https://gyazo.com/c056a443be88834f2e54ceb2bffd67adhttps://gyazo.com/ceddf98aebc475a1a76d76aeb4a103cf
ベンチマークの結果
https://scrapbox.io/files/679f8f752c410e2cd89a1443.webp
https://scrapbox.io/files/679f839b5cf1c05b89a7d561.webp
また注目すべき点として、このモデルの学習にかかった費用は、たったの5.6M$ほど。これはこれまでのフラグシップ大規模言語モデルと比較すると驚異的な安さ。
https://gyazo.com/399839cf59c1b86102652c053b5914a2
体感レベルでも控えめな評価でもGPT-4oに関しては同等レベル、といった感じ(個人の感想です)morisoba65536.icon
modelのweightが公開されているが流石にでかすぎてご家庭で動かすのは現実的ではない…morisoba65536.icon
どうしてもカントリーリスク的にChatGPT以上に重要な個人情報突っ込むのはためらわれるが、OSSのコードなどは気さくに突っ込めるので趣味レベルで調べ物や要約させるにはなかなか良さそう。
これまたお国柄かNSFW(主にエ□側)的な会話制限は米国のモデルに比べてかなりゆるいらしい
とはいえセンシティブ(エ□)を突っ込んでBANされても知りません。まぁ仮にバンされても被害範囲がこのChatだけだからあまり痛くもないかもしれないが…
モデル自体の制約は緩いようだがサービス側で結構ストップがかかる。(たぶんワードチェックなどで出力自体を確認して制限してそうな動きをしてる)
細かいところだがチャット履歴のタイトルが中国語になるので「これなんの会話だったっけ…」みたいにはなりやすいのは難点。システム言語設定を英語にしても自動でつくChatタイトルは中国語になる(まだ多少なりと漢字を読めるだけ日本人はマシなのだろうが…)
一応手動で好きなタイトルにはできる。
APIも激安なようなのでセクシーなキャラクターChatとか作るには良いかもしれない(同様に激安のGeminiはお国柄かセクシー方面厳しい上にあちらはBANされると非常に痛いGoogleアカウントなので…) APIでWebUIサービスと同じレベルのチェックが入ってるならやはりなんとかしてローカルで動かさないと盛り上がるところで突然止められるとかはあり得そう…ではある
実験的にV3の日本語能力モデル部分のみを切り出したモデル
https://gyazo.com/e5f969054ed13c3db3acd2447577b048
こちらはMIT Licenseになってるので学習データのもとを作ったりするには良さそうmorisoba65536.icon